当今培训通才机器人模型的障碍之一是异质的。以前的机器人学习方法经常收集数据以用一个特定的实施例来训练一个任务,这很昂贵且容易拟合。这项工作通过对不同实施方案和任务进行大规模的机器人数据的异质预培训来研究学习政策表示的问题。我们提出了异构训练的变形金刚(HPT),该变压器(HPT)预先训练了策略神经网络的大型,可共享的后备箱,以学习任务和实施不可知的共享表示。该一般体系结构将特定的本体感受和视力输入与从不同的实施例到短的令牌顺序,然后处理这些令牌以映射以映射以控制不同任务的机器人。利用最近的大规模多种设备现实世界机器人数据集以及模拟,部署的机器人和人类视频数据集,我们研究了异质性跨越的训练策略。我们进行实验,以研究培训目标的缩放行为,达到52个数据集。HPT在多个模拟器基准和真实世界设置中,在看不见的任务上,超过20%的策略绩效提高了几个基线,并提高了超过20%的策略绩效。
主要关键词